We study the hidden-action principal-agent problem in an online setting. In each round, the principal posts a contract that specifies the payment to the agent based on each outcome. The agent then makes a strategic choice of action that maximizes her own utility, but the action is not directly observable by the principal. The principal observes the outcome and receives utility from the agent's choice of action. Based on past observations, the principal dynamically adjusts the contracts with the goal of maximizing her utility. We introduce an online learning algorithm and provide an upper bound on its Stackelberg regret. We show that when the contract space is $[0,1]^m$, the Stackelberg regret is upper bounded by $\widetilde O(\sqrt{m} \cdot T^{1-C/m})$, and lower bounded by $\Omega(T^{1-1/(m+2)})$. This result shows that exponential-in-$m$ samples are both sufficient and necessary to learn a near-optimal contract, resolving an open problem on the hardness of online contract design. When contracts are restricted to some subset $\mathcal{F} \subset [0,1]^m$, we define an intrinsic dimension of $\mathcal{F}$ that depends on the covering number of the spherical code in the space and bound the regret in terms of this intrinsic dimension. When $\mathcal{F}$ is the family of linear contracts, the Stackelberg regret grows exactly as $\Theta(T^{2/3})$. The contract design problem is challenging because the utility function is discontinuous. Bounding the discretization error in this setting has been an open problem. In this paper, we identify a limited set of directions in which the utility function is continuous, allowing us to design a new discretization method and bound its error. This approach enables the first upper bound with no restrictions on the contract and action space.
translated by 谷歌翻译
非滑动非概念优化问题在机器学习和业务决策中广泛出现,而两个核心挑战阻碍了具有有限时间收敛保证的有效解决方案方法的开发:缺乏计算可触及的最佳标准和缺乏计算功能强大的口腔。本文的贡献是两个方面。首先,我们建立了著名的Goldstein Subdferential〜 \ Citep {Goldstein-1977-Optimization}与均匀平滑之间的关系,从而为设计有限时间融合到一组无梯度的方法的基础和直觉提供了基础和直觉戈德斯坦固定点。其次,我们提出了无梯度方法(GFM)和随机GFM,用于解决一类非平滑非凸优化问题,并证明它们两个都可以返回$(\ delta,\ epsilon)$ - Lipschitz函数的Goldstein Sentary Point $ f $以$ o(d^{3/2} \ delta^{ - 1} \ epsilon^{ - 4})$的预期收敛速率为$ o(d^{3/2} \ delta^{ - 1} \ epsilon^{ - 4})$,其中$ d $是问题维度。还提出了两阶段版本的GFM和SGFM,并被证明可以改善大泄漏结果。最后,我们证明了2-SGFM使用\ textsc {minst}数据集对训练Relu神经网络的有效性。
translated by 谷歌翻译
众所周知,传统平台之间的竞争可以通过将平台的操作与用户偏好保持一致,从而改善用户实用性。但是,在数据驱动的市场中表现出多大的一致性?为了从理论的角度研究这个问题,我们介绍了一个双重垄断市场,平台动作是强盗算法,两个平台竞争用户参与。该市场的一个显着特征是,建议的质量取决于强盗算法和用户交互提供的数据量。算法性能与用户的动作之间的这种相互依赖性使市场平衡的结构及其在用户公用事业方面的质量复杂化。我们的主要发现是,该市场的竞争并不能完全使市场成果与用户公用事业完全融合。有趣的是,市场成果不仅在平台拥有单独的数据存储库时,而且在平台具有共享数据存储库时表现不对。尽管如此,数据共享假设会影响什么机制驱动未对准的机制,并影响未对准的特定形式(例如,最佳案例和最差的市场成果的质量)。从更广泛的角度来看,我们的工作说明了数字市场中的竞争对用户实用性产生了微妙的后果,值得进一步调查。
translated by 谷歌翻译
我们研究了一种建设性算法,该算法通过有限差异来近似于统计功能的GATEAUX衍生物,重点是因果推理功能。我们考虑了不知道先验性的概率分布,但还需要从数据估算的情况。这些估计的分布导致了经验性Gateaux衍生物,我们研究了经验,数值和分析性GATEAUX衍生物之间的关系。从反事实平均估计的案例研究开始,我们实例化有限差异与分析性GATEAUX衍生物之间的确切关系。然后,我们得出了对扰动和平滑度数值近似速率的要求,以保留一步调整的统计益处,例如速率双重运动。然后,我们研究了更复杂的功能,例如动态治疗方案和无限马尔可夫决策过程中的策略优化的线性编程公式。在存在任意约束的情况下,新发现的近似偏差调整的能力说明了构建方法对Gateaux衍生物的有用性。我们还发现,功能性(速率双重鲁棒性)的统计结构可以允许较少的有限差近似速率保守速率。但是,此属性可以特定于特定功能,例如它是针对事实的平均值,但不是无限 - 摩恩MDP策略价值。
translated by 谷歌翻译
因果图发现和因果效应估计是因果推断的两个基本任务。尽管已经为每个任务开发了许多方法,但共同应用这些方法时会出现统计挑战:在同一数据上运行因果发现算法后,估算因果关系效应,导致“双重浸入”,使经典置信区间的覆盖范围无效。为此,我们开发了有效的可获得后发现推断的工具。一个关键的贡献是贪婪等效搜索(GES)算法的随机版本,该算法允许对经典置信区间进行有效的有限样本校正。在经验研究中,我们表明,因果发现和随后的推断算法的幼稚组合通常会导致高度膨胀的误导率。同时,我们的嘈杂的GES方法提供了可靠的覆盖范围控制,同时获得比数据拆分更准确的因果图恢复。
translated by 谷歌翻译
我们考虑在具有非线性函数近似的两名玩家零和马尔可夫游戏中学习NASH平衡,其中动作值函数通过繁殖内核Hilbert Space(RKHS)中的函数近似。关键挑战是如何在高维函数空间中进行探索。我们提出了一种新颖的在线学习算法,以最大程度地减少双重性差距来找到NASH平衡。我们算法的核心是基于不确定性的乐观原理得出的上和下置信度界限。我们证明,在非常温和的假设上,我们的算法能够获得$ O(\ sqrt {t})$遗憾,并在对奖励功能和马尔可夫游戏的基本动态下进行多项式计算复杂性。我们还提出了我们的算法的几个扩展,包括具有伯恩斯坦型奖励的算法,可以实现更严格的遗憾,以及用于模型错误指定的另一种算法,可以应用于神经功能近似。
translated by 谷歌翻译
解决零和游戏的算法,多目标代理目标,或更普遍的变化不平等问题(VI)问题在一般问题上是不稳定的。由于解决机器学习中这种问题的需求越来越大,近年来,这种不稳定性是一项重大的研究挑战。在本文中,我们概述了在针对广泛的VI问题类别的分析和设计中使用连续时间观点的最新进展。我们的演示文稿在单目标问题和多目标问题之间取得了相似之处,突出了后者的挑战。我们还为适用于一般VIS的算法制定了各种desiderata,我们认为实现这些Desiderata可能会从对相关的连续时间动态的理解中获利。
translated by 谷歌翻译
当客户具有不同的数据分布时,最新的联合学习方法的性能比其集中式同行差得多。对于神经网络,即使集中式SGD可以轻松找到同时执行所有客户端的解决方案,当前联合优化方法也无法收敛到可比的解决方案。我们表明,这种性能差异很大程度上可以归因于非概念性提出的优化挑战。具体来说,我们发现网络的早期层确实学习了有用的功能,但是最后一层无法使用它们。也就是说,适用于此非凸问题的联合优化扭曲了最终层的学习。利用这一观察结果,我们提出了一个火车征征训练(TCT)程序来避开此问题:首先,使用现成方法(例如FedAvg)学习功能;然后,优化从网络的经验神经切线核近似获得的共透性问题。当客户具有不同的数据时,我们的技术可在FMNIST上的准确性提高高达36%,而CIFAR10的准确性提高了 +37%。
translated by 谷歌翻译
联合学习通常被认为是一种有益的技术,它允许多个代理人相互协作,提高模型的准确性,并解决这些问题,这些问题否则这些问题是数据密集型 /昂贵而无法单独解决的。但是,在预期其他代理商将共享其数据的情况下,理性的代理人可能会很想从事有害行为,例如自由骑行的行为,他们在哪里贡献了数据,但仍然享有改进的模型。在这项工作中,我们提出了一个框架来分析此类合理数据生成器的行为。我们首先展示了幼稚的方案如何导致灾难性的自由骑行水平,其中数据共享的好处被完全侵蚀。然后,使用合同理论的想法,我们介绍基于准确性的机制,以最大程度地提高每个代理生成的数据量。这些可以防止自由骑行而无需任何付款机制。
translated by 谷歌翻译
推荐系统在塑造现代网络生态系统中起关键作用。这些系统在(1)提出建议之间交替(2)收集用户对这些建议的响应,以及(3)根据此反馈重新审判建议算法。在此过程中,推荐系统会影响随后用于更新它的用户行为数据,从而创建反馈循环。最近的工作表明,反馈循环可能会损害建议质量并使用户行为均匀,从而在部署推荐系统时提高道德和绩效问题。为了解决这些问题,我们提出了反馈循环(CAFL)的因果调整,该算法可证明使用因果推理打破反馈回路,并可以应用于优化培训损失的任何建议算法。我们的主要观察结果是,如果原因是因果量的原因,即推荐系统不会遭受反馈循环的影响,即对用户评级的建议分布。此外,我们可以通过调整推荐系统对用户偏好的预测来计算从观察数据中计算此干预分布。使用模拟环境,我们证明CAFL与先前的校正方法相比提高了建议质量。
translated by 谷歌翻译